▋前言
光有逐字稿還不夠,要理解學生的「情緒」才是教育場景的核心之一。IEMOCAP 是一個專門為情緒辨識設計的語音資料集,今天我們就來看看它的結構。
▋內容
IEMOCAP 的特色
角色扮演與對話:由演員根據情境進行情緒化表演。
標註情緒:每段語音有情緒標籤,例如 happy、angry、sad、neutral。
多模態資料:同時包含語音、影像與文字逐字稿。
語音長度:多為 3–15 秒,適合做短片段情緒分類。
EDA 探勘重點
情緒分布
約 10,000 段語音,分布不均。
neutral 資料最多,happy/sad 相對少。
語音特徵
高低起伏明顯,適合訓練情緒分類模型。
有些情緒(如 anger vs excitement)難以區分。
挑戰
演員 vs 真實情緒:IEMOCAP 是「模擬情緒」,與真實課堂中的自然情緒會有落差。
多模態整合:若只用語音,忽略了表情或手勢,可能會失去部分資訊。
結論
IEMOCAP 很適合作為情緒辨識的起始訓練資料,但要應用到真實教學情境,仍需進一步 domain adaptation。
▋下回預告
下一篇,我們將把 AMI、Switchboard、IEMOCAP 三個資料集的探勘結果統整起來,做個簡單的小結。
▋參考資料